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摘 要 : VLBI 观测 站 的 乞 原 子 钟 和 时 间 比 对 系统 〈 简 称 时 频 系 统 ) 为 测 站 提供 稳定 可 靠 的 
时 间 和 频率 基准 ， 系 统 信号 的 质量 将 直接 影响 观测 数据 质量 。 其 中 ， 迄 原子 钟 是 时 频 系 统 的 关 
键 设备 ， 一 旦 出现 故障 ， 其 对 数据 的 破坏 是 致命 的 。 因 此 ，VLBI1 站 时 频 系 统 在 设计 建设 之 初 就 
对 和 氨 原 子 钟 及 其 周边 各 参数 状态 进行 了 实时 监视 并 进行 记录 保存 ， 一 旦 发 现 异 常 ， 技 术 人 员 需 
进行 快速 处 理 。 中 国 VLBI 网 (OVW) 建成 至 今 ， 目 前 共 五 个 测 站 ， 每 个 测 站 的 时 频 系 统 都 配 有 
两 人 或 以 上 的 气 原 子 钟 ， 系 统 长 期 运行 以 来 积累 了 大 量 数据 ， 通过 对 这 些 数据 的 分 析 ， 我 们 可 
以 研究 气 原 子 钟 状态 变化 、 性 能 变化 、 及 环境 变化 之 间 关 系 ， 然 后 建立 故障 预测 模型 从 而 对 设 
备 故障 进行 预测 。 本 文 描述 创建 时 频 系 统 数 据 仓 库 ， 利 用 数据 挖 据 技 术 预 测 系统 故障 的 测试 过 
程 ， 从 测试 结果 可 知 在 本 项 目 中 可 以 用 聚 类 模型 进行 很 好 的 预测 。 
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C 时 频 系 统 为 YLBI 测 站 提供 稳定 可 靠 的 时 间 标 准 ， 其 输出 信号 的 质量 将 直接 影响 观测 质量 。 
CO 系统 包括 了 氢 原 子 钟 和 其 他 时 间 比 对 设备 ， 氢 原子 钟 作为 其 中 最 关键 的 设备 ， 是 一 种 高 精度 的 
= 频率 标准 ， 但 由 于 其 微波 谐振 腔 输出 频率 易 受 外 界 环境 因素 干扰 ， 所 以 其 性 能 也 很 容易 受 外 界 
= 环境 影响 ， 因 此 针对 整个 时 频 系统 状态 和 性 能 变化 的 研究 目前 主要 集中 在 环境 变化 对 氢 原 子 钟 
AN 性 全 的 影响 上 面 ， 对 此 ， 国 内 外 的 学 者 都 做 了 若干 工作 “。 研究 结果 表明 在 环境 控制 较 差 的 情 
况 下 ， 氧 原子 钟 的 频率 稳定 度 会 有 显著 的 下 降 。 因 此 ， 对 于 环境 状态 的 有 效 控制 是 确保 氧 原子 
钟 乃 至 整个 时 频 系 统 可 靠 运行 的 前 提 。 

另外 一 方面 ， 作 为 用 户 ， 针 对 氧 原子 钟 的 运行 ， 除 了 提高 设备 本 身 的 可 靠 性 之 外 ， 对 发 生 
故障 的 提前 预测 也 是 减少 故障 发 生 及 尽早 处 理 故障 的 有 效 方法 。 因 为 ， 氢 原子 钟 的 运行 是 一 个 
动态 的 过 程 ， 其 中 伴随 着 复杂 的 物理 和 化 学 的 状态 变化 ， 其 中 一 些 变化 最 终 导致 了 氧 原子 钟 性 
能 指标 的 变化 甚至 导致 了 故障 的 发 生 ， 观察 和 分 析 这 种 变化 之 间 的 关系 有 助 于 实现 故障 预测 。 
这 首先 需要 对 设备 状态 进行 监视 ， 然 后 通过 将 相关 数据 进行 分 析 处 理 ， 得 出 预测 模型 ， 从 而 达 
到 精准 预测 设备 状态 的 目的 。 


《 
= 
¢ 


aF 


2. 数据 收集 


故障 预测 技术 是 一 门 多 学 科 综 合 信息 处 理 技 术 ， 是 故障 诊断 技术 之 上 的 一 种 拓展 和 延伸 中 ， 
是 在 设备 正常 工作 的 前 提 下 ， 利 用 历史 数据 和 相关 技术 ， 结合 当前 状态 对 可 有 6 将 要 发 生 的 故障 
趋势 行 预测 的 一 个 过 程 上 R。 预 测 方法 的 分 类 大 致 可 以 分 为 三 类 : 基于 模型 、 基 于 数据 驱动 、 
SEF SR SEES. AEE] VLBI 网 (China VLBI Network， 简 称 CVN) 建立 已 有 十 多 年 的 历史 ， 
运行 至 今 积 累 了 大 量 的 数据 ， 具 有 进行 相关 研究 的 数据 基础 。 本 文选 用 基于 数据 驱动 的 故障 预 
测 技术 来 进行 研究 。 该 技术 近年 来 广 受 重视 并 取得 快速 发 展 ， 并 成 为 重要 研究 热点 
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VLBI 测 站 时 频 系统 的 主要 设备 包括 氢 原 子 钟 、 分 频 钟 / 台 站 钟 、 时 间 间 隔 计 数 器 、 切 换 器 、 倍 
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频 器 、 频 率 /脉冲 分 配器 、GPS/BD 时 间 服 务 器 等 ， 另 外 还 有 提供 周边 服务 的 设备 ， 包 括 UPS, 
恒温 恒 湿 空调 、 室 内 数字 温度 计 、 室 外 气 象 站 等 用 以 提供 不 间断 电源 及 环境 监测 设备 运行 的 外 
环境 状态 。 根 据 《 实 用 型 氧 原子 钟 技术 说 明 书 》，VLBI 测 站 使 用 的 主动 型 氧 原 子 钟 提供 类 似 小 
型 钟 的 状态 监控 系统 加， 用 户 可 以 通过 其 串口 采集 数据 ， 利 用 数据 分 析 钟 状态 ， 其 他 设备 数据 
的 采集 也 同样 可 以 通过 设备 自 带 的 串口 或 网 络 通讯 协议 接口 并 配合 对 应 的 采集 软件 来 完成 ， 也 
可 以 根据 需要 通过 专用 串口 /网 口 转换 设备 将 接口 进行 转换 后 采集 ， 数 据 采 集 频 率 根据 需求 设 
定 。 


时 频 系 统 的 监测 数据 包括 了 氧 原子 钟 内 部 各 个 参数 的 状态 、 钟 差 、 钟 房 环 境 温 湿度 、 外 部 
环境 温 湿 度 、 气 压 、 风 向 风速 等 ， 不 同 的 数据 来 自 不 同 的 设备 ， 比 如 和 毛 钟 状态 来 自 氢 钟 ， 钟 房 
温 湿度 来 自 钟 房 温 湿度 计 等 。 这 些 数 据 为 预测 模型 的 研究 提供 了 第 一 手 的 资料 ， 使 得 研究 具有 
可 行 性 。 只 是 ,经 过 多 年 建设 及 持续 维护 和 改造 ， 各 时 频 系 统 中 运行 过 或 正在 运行 的 设备 众多 ， 
其 中 光 氨 原子 钟 的 型 号 就 包括 了 MHM2010、VCH-1003M、SHOM-3、SHOM-4 及 SHOM-A 等 
多 种 ， 具 体 的 设备 编号 也 有 所 变动 ， 数 据 存储 的 内 容 和 格式 有 不 同 程 度 的 差异 ， 而 且 存 储 方式 
及 数据 格式 并 不 完全 相同 ， 有 的 是 以 数据 库 的 形式 存储 ， 有 的 是 以 文件 存储 ， 想 要 进行 数据 
分 析 ， 第 一 步 的 工作 是 要 对 数据 进行 整理 ， 建 成 时 频 系统 数据 仓库 。 


3. 数据 整理 
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典型 的 基于 数据 驱动 的 故障 预测 方法 有 人 工 神经 网 络 、 模 糊 系统 和 其 他 的 计算 智能 方法 。 
本 文采 用 一 种 基于 数据 挖掘 思想 的 预测 算法 展开 研究 。 
时 频 系 统 的 主要 设备 如 前 所 述 ， 经 过 业务 分 析 ， 得 出 时 频 系 统 数据 仓库 的 概念 模型 设计 如 


图 1 所 示 。 
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图 1 时 频数 据 仓 库 的 实体 联系 图 


Figure 1 E-R diagram for timing system data warehouse 


接 下 来 ， 根 据 数据 仓库 建设 的 步骤 ， 分 别 对 其 进行 逻辑 建 模 和 物理 建 模 ， 逻 辑 模型 如 图 2 
所 示 ， 而 部 分 数据 表 设 计 如 表 1 ~ K 6 所 示 。 
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图 2 时 频数 据 仓 库 的 逻辑 模型 图 
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Figure 2 Logical model diagram for timing system data warehouse 
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#1 氧 钟 信息 表 2 钟 差 数 据 
Table 1 Maser information Table2 Clock offset 
Column Name Data Type Allow Nulls Column Name Data Type Allow Nulls 
StationID char(10) N MaserNO nchar(7) N 
MaserNO nchar(7) Y Time datetime N pk 
Type char(50) Y Offset numeric(18,15) Y 
ID char(20) N pk 
DateStart datetime Y 
表 3 氢 钟 运行 状态 表 4 室外 环境 
Table 3 Maser status Table 4 Outdoor environment 
Column Name Data Type Allow Nulls Column Name DataType Allow Nulls 
MaserNO nchar(7) N StationID char(10) N 
Time datetime N pk Time datetime N pk 
Chan (1) decimal(8,2) N Temperature numeric(3,1) N 
Chan C...) decimal(8,2) N Humidity numeric(4, 1) N 
Chan (32) decimal(8,2) N Pressure numeric(5, 1) N 
Freq nchar(20) Y WindDir In N 
WindSpeed numeric(3,1) N 
#5 室内 环境 表 6 系统 运行 状态 


Table 9 Indoor environment 


Table 6 System status 


Column Name DataType Allow Nulls Column Name Data Type Allow Nulls 
StationID char(10) N StationID char(10) N 

Time datetime N pk Time datetime N pk 

Temperature numeric(3,1) N StatusNO char(10) Y 
Humidity numeric(4, 1) N Descrip char(100) Y 

由 于 数据 的 多 样 性 和 复杂 性 ， 首 先 需要 对 数据 进行 整理 ， 整 理 的 步骤 包括 数据 清洗 ， 及 转 
换 数据 格式 等 。 数 据 清 洗 即 对 原始 数据 中 的 错误 数据 以 及 无 效 数 据 进 行 剔除 ， 再 经 格式 转换 后 
统一 入 库 。 

时 频 系 统 的 数据 记录 有 数据 库 、 文 本 文件 两 种 形式 ， 清 洗 的 过 程 中 需要 注意 时 间 格 式 有 北 
京 时 间 和 世界 时 的 区 别 ， 为 后 续 统一 关系 ， 这 里 全 部 换算 成 统一 的 世界 时 ;人 台 站 的 设备 时 有 更 
换 ， 有 型 号 升级 或 同型 号 更 换 ， 这 些 信息 有 的 完整 ， 有 的 错误 ， 有 的 缺失 ， 缺 失 的 补 空 ， 错 误 
的 需要 修正 ， 数 据 记 录 有 混合 ， 即 同样 的 数据 表格 里 ， 可 能 混合 了 不 同时 期 不 通 型 号 或 编号 的 
设备 数据 ， 这 种 情况 则 需要 根据 当时 的 日 志文 件 对 数据 进行 拆 分 及 重新 补 录 ; 另外 ， 由 于 源 数 
据 数 据 量 较 大 ， 为 方便 测试 ， 本 文中 对 数据 进行 了 均匀 缩减 抽样 。 

4. ”数据 分 析 

由 于 在 所 有 数据 中 ， 能 够 最 直观 反映 时 频 系 统 状 态 的 是 氧 原子 钟 的 状态 数据 ， 所 以 本 文 以 
SHOM-4 H 所 原子 钟 为 例 ， 重点 分 析 有 关 氧 原子 钟 的 状态 数据 及 当时 的 环境 温度 数据 。 根 据 该 
氧 原子 钟 技 术 说 明 书 的 内 容 , 钟 的 常规 状态 参数 个 数 有 32 个 , 除去 1 个 备用 及 8 个 隔离 放大 器 


的 数据 ， 其 他 均 可 以 实时 反映 运行 


状态 。 图 


3 是 2019 年 编号 为 88# 的 氧 钟 的 状态 及 当时 的 环境 
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温度 数据 信息 ， 其 中 纵 坐 标 表 示 各 参数 的 数值 。 
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图 3 2019 年 数据 《部 分 数据 有 缺失 ) 


Figure 3 Data in 2019 (some data are missing) 
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大 部 分 ， 其 中 接收 机 中 频 信 号 IFL 的 数值 代表 钟 信号 ， 若 值 小 于 1.5 则 表示 钟 输出 信号 消失 ， 
属于 严重 故障 ， 本 文 重点 对 该 参数 进行 分 析 。 在 对 数据 进行 细 化 之 后 ， 根 据 氨 钟 技术 手册 ， 再 
结合 以 往 经 验 ， 可 以 得 到 共 11 个 参数 与 IFL 值 密切 相关 ， 具 体 如 图 4 所 示 ， 因 为 数据 值 相差 比 
较 大 ， 为 了 让 读者 看 得 更 清晰 ， 所 以 把 数据 分 成 了 两 幅 图 显示 ， 上 半 部 分 显示 OSCI 值 ， 下 半 
部 分 显示 另外 10 个 参数 值 。 进 一 步 细 化 ， 可 以 看 到 更 多 细节 ， 比 如 从 图 5 两 个 数据 曲线 形状 来 
判断 ， 认 为 两 者 有 很 强 的 相关 性 ， 可 以 说 ， 曲 线 的 弯曲 方向 大 致 是 相反 的 ， 也 就 是 温度 升 高 时 
OVNI 和 OVN2 值 下 降 ， 温 度 下 降 时 OVNI 和 OVN2 值 则 升 高 ， 即 OVN1、OVN2 和 温度 数据 
相关 度 最 高 ， 这 是 因为 OVN1 和 OVN2 是 钟 恒温 部 分 中 外 炉 位 置 电 压 值 ， 直 接受 环境 温度 变化 


影响 。 
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图 4 部 分 相关 参数 状态 


Figure 4 Part of the relevant parameters status 
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图 5 外 炉 电压 与 温度 数据 关系 
Figure 5 the relationship between OVN1&2 and temperature 
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5. 故障 预测 模型 


5.1. 几 种 挖掘 算法 的 比较 
信息 化 社会 PE reels eeu elit 数据 挖掘 技术 是 为 了 满足 获取 此 


价值 的 要 求 而 来 ， 
大 量 算法 应 运 而 生 ， 


一 种 从 大 量 随机 数据 中 提取 有 用 信息 和 知识 的 技术 。 该 技术 在 发 展 过 程 中 
， 但 同时 又 各 有 各 的 局 限 ， 多 种 算法 融合 应 该 是 解决 具体 事务 的 发 展 趋势 


本 文 以 2019 年 数据 为 例 ， 采 用 几 种 典型 算法 分 别 进行 分 析 处 理 ， 并 比较 其 性 能 。 

根据 每 种 算法 在 传统 上 的 应 用 ， 以 及 结合 本 项 目 特定 场景 ， 选 择 了 决策 树 、 聚 类 、 关 联 和 
时 序 等 算法 来 进行 测试 研究 。 其 中 各 算法 的 有 关 参 数 可 以 调整 ， 比如 ， 在 决策 树 模型 中 ， 可 以 
看 到 各 参数 的 依赖 关系 网 络 , 选择 IFL 节点 , 显示 其 所 有 链接, 可 以 看 到 IFL 与 OVN1、OVN2、 
FLUX、DIO 及 温度 数据 有 关 ， 而 调整 到 显示 较 强 链接 ， 可 以 看 到 与 DIO 的 关系 链 断 开 了 【图 
6); 关联 算法 中 多 个 参数 由 于 是 连续 数据 而 被 忽略 ;而 时 序 算法 需要 连续 的 数据 ， 不 允许 出 现 
空白 ， 因 为 测试 中 选 定 的 数据 中 有 缺失， 所 以 需要 指定 用 来 填充 空白 的 方法 ， 可 以 使 用 前 面 的 
值 、 平 均值 或 使 用 特定 的 常量 。 由 各 挖掘 算法 创建 的 挖掘 模型 如 图 7 所 示 。 
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图 6 参数 间 依 赖 关 系 网 络 


Figure 6 Dependency network between parameters 


Cluster Association 结构 4 TimeSeries 
ft_Decision Trees vg Microsoft Clustering & Microsoft Association Rules 


图 7 各 挖掘 模型 


Figure 7 Data mining models 


图 对 各 算法 模型 的 准确 性 进行 查看 ， 如 图 8 所 示 ， 赣 色 线 为 理想 模型 ， 图 中 


X 轴 表 示 用 于 比较 预测 的 测试 数据 集 的 百分比 ，Y 轴 表 示 准 确 预测 的 百分比 。 因 此 ， 理 想 线 是 
一 条 对 角 线 ， 用 于 显示 在 50% 的 数据 中 ， 模 型 准确 预测 50% 的 事例 〈 即 预计 的 最 大 值 )。 可 
见 各 模型 都 接近 理想 模型 ， 其 中 决策 树 模型 表现 最 为 优秀 。 


SRM, FEAF? 


查看 预测 结果 的 时 候 ， 发 现 虽然 绝 大 部 分 值 都 预测 成 功 ， 但 是 数据 中 实际 存 
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在 的 一 个 异常 值 并 没有 预测 成 功 ， 即 图 9 中 鼠标 选中 的 数值 0.38， 因 为 小 于 1.5， 所 以 是 实际 的 
异常 值 , 但 是 这 个 值 在 三 个 模型 的 预测 中 都 没有 被 预测 出 来 , 原因 可 能 是 因为 该 异常 值 在 15130 
个 数据 中 只 出 现 了 一 次 ， 即 测试 数据 不 够 典型 ， 可 想 而 知 在 实际 预测 中 的 预测 效果 并 不 好 ， 时 
序 算 法 中 的 测试 存在 同样 的 问题 ， 所 以 接 下 来 的 测试 对 测试 数据 进行 了 重新 选择 。 
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8 各 模型 挖 据 准 确 性 提升 图 


Figure 8 Data mining accuracy lift chart of the models 


[IFL] Ere 的 计数 : 


Predicte Actual Actual Actual Actual Actual 
PAM 3.12 (实际 ) 3.06 (实际 ) 3.08 (实际 ) 3.1 GRR) 0.38 (实际 ) 
3.12 0 0 0 0 0 

3.06 0 0 0 0 

3.08 0 5 903 122 

3.1 6 1 1142 12950 

0.38 0 0 0 0 

gr] E fiuster 的 计数 :) Actual Actual Actual Actual 
FANI 3.12 (实际 ) 3.06 (实际 ) 3.08 (实际 ) 3.1 GRR) 0.38 (实际 ) 
3.12 0 0 0 0 0 

3.06 0 0 0 0 0 

3.08 0 5 1149 584 0 

3.1 6 1 896 12488 1 

0.38 0 0 0 0 

[IFL] 上 Association 的 计数 ; 

Predicted Actual Actual Actual Actual Actual 
预测 3.12 (实际 ) 3.06 (实际 ) 3.08 (实际 ) 3.1 GBR) 0.38 (实际 ) 
3.12 0 0 0 0 0 

3.06 0 0 0 0 0 

3.08 0 0 0 0 0 

3.1 6 6 2045 13072 1 

0.38 0 0 0 0 


9 各 模型 的 分 类 矩阵 
Figure 9 Classification matrix of the models 
5.2. 模型 优化 及 预测 


新 的 测试 数据 选 自 2013 年 的 编号 43# 气 钟 ， 其 中 IFL 的 数据 如 图 10 所 示 ， 可 以 看 出 期 间 
发 生 了 多 次 信号 消失 现象 ， 本 文摘 取 这 有 段 数据 进行 模型 建构 展示 。 
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这 次 模型 建构 测试 中 ， 聚 类 模型 的 分 数 高 过 决策 树 达 到 0.88 (图 11)， 所 以 选用 该 模型 对 
测试 数据 的 后 半 段 进行 预测 ， 将 预测 数据 中 的 预测 值 IFL 置 空 CNULL)。 从 预测 分 类 矩阵 〈 图 
2) 中 可 以 看 出 对 于 预测 值 IFL， 其 各 类 数据 的 预测 结果 都 比较 均匀 ， 与 实际 数据 相符 ， 预 测 
结果 中 预测 到 值 为 0.06 (故障 值 ) 的 数据 15 条 , 与 实际 数据 的 14 条 非常 接近 ,预测 概率 从 0.51 
到 0.857， 准 确 率 也 很 高 。 可 知 ， 用 此 模型 进行 故障 预测 成 功 。 


since 00:00:00 2013-02-05 00:00:00 2013-02-15 00:00:00 2013-02-25 00:00:00 2013-03-07 00:00:00 2013-03-17 00:00:00 2013-03-27 00:00:00 2013-04-06 00:00:00 2013-04-16 00:00:00 2013-04-26 00:00:00 2013-05-06 00:00:00 
R7 O o E - 
10 2013 年 43 号 钟 的 中 频 信号 数据 
Figure 10 IFL data of 43# in 2013 
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s 
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10 各 模型 准确 性 提升 图 
Figure 10 Data mining accuracy lift chart of the models 
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Figure 11 Classification matrix of the clustering model 
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Expression IFL time 

| . 0.06 2013/3/19 3:37:30 
0. 8571428571... 0.06 2013/3/19 3:37:50 
0. 8571428571... 0.06 2013/3/19 3:38:10 
0. 8571428571... 0.06 2013/3/19 3:38:30 
0. 8571428571... 0.06 2013/3/19 3:38:50 
0. 8571428571... 0.06 2013/3/19 3:39:10 
0. 8571428571... 0.06 2013/3/19 3:39:30 
0. 5216530296... 0.06 2013/3/19 4:47:22 
0. 5216530296... 0.06 2013/3/19 4:49:42 
0. 5193145210... 0.06 2013/3/19 4:50:02 
0. 5211856772... 0.06 2013/3/19 4:50:22 
0. 5216530296... 0.06 2013/3/19 4:50:42 
0. 5216530296... 0.06 2013/3/19 4:51:02 
0. 5216530296... 0.06 2013/3/19 4:51:22 
| 0. 5191467471... 0.06 2013/3/19 4:51:42 


O) ehrama: 提取 了 iS 
12 聚 类 模型 预测 结果 
Figure 12 Prediction results of the clustering model 
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目 同时 对 时 序 算法 进行 了 测试 。 时 序 算法 用 于 预测 一 系列 连续 数据 点 的 未 来 值 ， 要 求 
必须 包含 时 间 键 ， 而 我 们 的 数据 正 是 以 时 间 序列 采集 到 的 ， 符 合 要 求 。 实 际 的 预测 结果 如 图 13 
所 示 ， 可 以 看 到 左 侧 实 线 是 实际 值 ， 右 侧 虚 线 是 预测 值 ， 比 对 实际 数据 ， 即 从 图 10 中 可 以 看 到 
5:17:10 之 后 附近 的 数据 确实 是 在 3 左右 ， 由 此 可 知 预测 部 分 非常 准确 。 然 而 ， 重 新 
选择 预测 开始 点 的 话 ， 则 预测 的 结果 如 图 14 所 示 ， 并 不 能 令 人 满意 ， 想 来 是 因为 数据 的 周期 性 


因此 使 用 的 时 序 算法 并 不 是 最 理想 。 这 有 待 于 后 续 继续 分 析 研 究 。 


0 


2013/3/18 2013/3/18 2013/3/18 2013/3/18 2013/3/19 2013/3/19 2013/3/19 
16:29:50 18:36:30 20:43:10 22:49:50 0:56:26 3:38:10 5:17:10 


一 一 IFL (实际) =e IFL (Fiat) 


13 时 序 模型 预测 结果 1 


Figure 13 Prediction results of the time series model 
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0. 

2013/3/18 2013/3/18 2013/3/18 2013/3/19 2013/3/19 2012/3/19 2013/3/19 
19:36:30 21:43:10 23:49:50 1:37:46 4:51:42 5:37:19 5:49:59 
一 一 IFL (实际 ) meee IFL (FHM) 


ed 
14 时 序 模型 预测 结果 2 
Figure 14 Prediction results of the time series model 


本 文 针对 时 频 系 统 故障 预测 问题 进行 了 一 些 方法 探索 ， 利 用 数据 挖掘 技术 对 历史 数据 进行 


了 分 析 和 测试 。 从 测试 过 程 可 知 ， 结 合 设备 本 身 状 态 数据 及 运行 环境 数据 可 以 分 析 预 测 设备 状 


态 趋势 ， 从 而 对 可 能 发 生 的 故障 进行 预警 。 
分 析 的 难点 在 于 算法 的 选择 和 设计 ， 模 型 建构 的 过 程 是 算法 不 断 优 化 的 过 程 。 本 文 测 试 得 
模型 可 很 好 地 进行 预测 ， 后 续 可 以 通过 更 多 的 数据 进行 验证 ， 同 时 下 一 步 需 将 此 预测 模 
型 集成 到 时 频 系 统 软件 中 从 而 实现 系统 实时 故障 预测 。 
另外 ， 分 析 所 用 的 预测 模型 需要 有 大 量 原 始 数据 进行 训练 ， 用 于 训练 的 数据 越 多 越 全 面 越 


知 


能 履 盖 所 有 可 能 则 模型 越 准确 越 健壮 ， 然 而 如 何在 有 限 的 算 力 下 高 效 处 理 这 些 数据 成 为 难题 ， 
后 续 有 必要 进行 专门 研究 。 


Timing system failure prediction 


i “ 1,2 。 1 
WANG Lingling GOU Wei 
(1. Shanghai Astronomical Observatory, Chinese Academy of Sciences, Shanghai, 200030; 
2. Shanghai Key Laboratory of Space Navigation and Positioning Technology, Shanghai, 200030) 


Abstract: The hydrogen maser and time comparison system (timing system for short) of the 
VLBI observatory provides a stable and reliable time and frequency reference for the observing 
station. The quality of the system signal will directly affect the quality of the observation data. Among 
them, the hydrogen maser is the key equipment of the timing system. Once it fails, its damage to data 
is fatal. Therefore, at the beginning of the design and construction of the VLBI station timing system, 
the state of the hydrogen maser and its surrounding parameters were monitored and recorded in real 
time. Once an abnormality is found, the technicians need to deal with it quickly. China VLBI Network 
(CVN) has been established so far. There are currently five stations. The timing system of each station 
is equipped with two or more hydrogen masers. The system has accumulated a large amount of data 
since its long-term operation. Through the analysis of these data, We can study the relationship 
between state changes, performance changes, and environmental changes of the hydrogen maser, and 
then establish a failure prediction model to predict failures. This article describes the test process of 
creating a timing system data warehouse and using data mining technology to predict system failures, 
and we found the clustering model can be used to make good predictions in this project. 

Key words: timing system; hydrogen maser; failure prediction; data-driven 
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